白葡萄酒质量的研究

## [1] 4898   13
## 'data.frame':    4898 obs. of  13 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
##  $ volatile.acidity    : num  0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
##  $ citric.acid         : num  0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
##  $ residual.sugar      : num  20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
##  $ chlorides           : num  0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
##  $ free.sulfur.dioxide : num  45 14 30 47 47 30 30 45 14 28 ...
##  $ total.sulfur.dioxide: num  170 132 97 186 186 97 136 170 132 129 ...
##  $ density             : num  1.001 0.994 0.995 0.996 0.996 ...
##  $ pH                  : num  3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
##  $ sulphates           : num  0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
##  $ alcohol             : num  8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
##  $ quality             : int  6 6 6 6 6 6 6 6 6 6 ...
##        X        fixed.acidity    volatile.acidity  citric.acid    
##  Min.   :   1   Min.   : 3.800   Min.   :0.0800   Min.   :0.0000  
##  1st Qu.:1225   1st Qu.: 6.300   1st Qu.:0.2100   1st Qu.:0.2700  
##  Median :2450   Median : 6.800   Median :0.2600   Median :0.3200  
##  Mean   :2450   Mean   : 6.855   Mean   :0.2782   Mean   :0.3342  
##  3rd Qu.:3674   3rd Qu.: 7.300   3rd Qu.:0.3200   3rd Qu.:0.3900  
##  Max.   :4898   Max.   :14.200   Max.   :1.1000   Max.   :1.6600  
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.600   Min.   :0.00900   Min.   :  2.00     
##  1st Qu.: 1.700   1st Qu.:0.03600   1st Qu.: 23.00     
##  Median : 5.200   Median :0.04300   Median : 34.00     
##  Mean   : 6.391   Mean   :0.04577   Mean   : 35.31     
##  3rd Qu.: 9.900   3rd Qu.:0.05000   3rd Qu.: 46.00     
##  Max.   :65.800   Max.   :0.34600   Max.   :289.00     
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  9.0        Min.   :0.9871   Min.   :2.720   Min.   :0.2200  
##  1st Qu.:108.0        1st Qu.:0.9917   1st Qu.:3.090   1st Qu.:0.4100  
##  Median :134.0        Median :0.9937   Median :3.180   Median :0.4700  
##  Mean   :138.4        Mean   :0.9940   Mean   :3.188   Mean   :0.4898  
##  3rd Qu.:167.0        3rd Qu.:0.9961   3rd Qu.:3.280   3rd Qu.:0.5500  
##  Max.   :440.0        Max.   :1.0390   Max.   :3.820   Max.   :1.0800  
##     alcohol         quality     
##  Min.   : 8.00   Min.   :3.000  
##  1st Qu.: 9.50   1st Qu.:5.000  
##  Median :10.40   Median :6.000  
##  Mean   :10.51   Mean   :5.878  
##  3rd Qu.:11.40   3rd Qu.:6.000  
##  Max.   :14.20   Max.   :9.000

单变量绘图选择

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.800   6.300   6.800   6.855   7.300  14.200

查看fixed.acidity的直方图,从图中可以看出其基本满足正态分布。

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0800  0.2100  0.2600  0.2782  0.3200  1.1000

查看volatile.acidity的直方图,从图中可以看出其基本满足正态分布,除了右边的数据尾巴比较长。

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.800   6.300   6.800   6.855   7.300  14.200

查看fixed.acidity的直方图,从图中可以看出其基本满足正态分布。

## Scale for 'x' is already present. Adding another scale for 'x', which
## will replace the existing scale.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.600   1.700   5.200   6.391   9.900  65.800

查看residual sugar的直方图,在为调整坐标轴前数据不满足正态分布。经过坐标轴的调整得到一个呈双峰分布的数据。

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00900 0.03600 0.04300 0.04577 0.05000 0.34600

查看cholrides的直方图,从图中可以看出其基本满足正态分布。

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2.00   23.00   34.00   35.31   46.00  289.00

查看free.sulfur.dioxide的直方图,从图中可以看出其基本满足正态分布。

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     9.0   108.0   134.0   138.4   167.0   440.0

查看free.sulfur.dioxide的直方图,从图中可以看出其基本满足正态分布。

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9871  0.9917  0.9937  0.9940  0.9961  1.0390

查看density的直方图,从图中可以看出其基本满足正态分布。

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.720   3.090   3.180   3.188   3.280   3.820

查看pH的直方图,从图中可以看出其基本满足正态分布。

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2200  0.4100  0.4700  0.4898  0.5500  1.0800

查看=sulphates的直方图,从图中可以看出其基本满足正态分布。

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.00    9.50   10.40   10.51   11.40   14.20

查看alcohol的直方图,图形不符合正态分布,在调整坐标轴后也没有满足正态分布。

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   5.000   6.000   5.878   6.000   9.000

查看quality的直方图,从图中可以看出其基本满足正态分布。

单变量分析

你的数据集结构是什么?

从这里可以看出这个数据集有4898行,13列。也就是数据集中有13个特征,4898个数据。

从head我们可以看出,x是序号,其他的12列代表的是属性。其中2-12个都是将葡萄酒的性质,最后的一个是对于葡萄酒质量的评分。在这些特征中没有factor类型的数据。

你的数据集内感兴趣的主要特性有哪些?

哪些变量会影响白葡萄酒的quality。

你认为数据集内哪些其他特征可以帮助你探索兴趣特点?

每一个变量都可能影响白葡萄酒的quality。同一个物质的含量不同很可能会对葡萄酒的口味产生影响。

根据数据集内已有变量,你是否创建了任何新变量?

我注意到变量中有free.sulfur.dioxide和total.sulfur.dioxide,因此,应当存在一个other.sulfur.dioxide。

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     4.0    78.0   100.0   103.1   125.0   331.0

接下来查看other.sulfur.dioxide的直方图,从图中可以看出其基本满足正态分布。

在已经探究的特性中,是否存在任何异常分布?你是否对数据进行一些操作,如清洁、调整或改变数据的形式?如果是,你为什么会这样做?

从上面的图中和summary中可以看出,变量基本上都满足正态分布。residual.sugar使用log对x轴进行转换处理后,呈一个双峰的状态。alchohol未能处理成一个正态分布的状态。

双变量绘图选择

##                          X fixed.acidity volatile.acidity citric.acid
## X                     1.00         -0.26             0.00       -0.15
## fixed.acidity        -0.26          1.00            -0.02        0.29
## volatile.acidity      0.00         -0.02             1.00       -0.15
## citric.acid          -0.15          0.29            -0.15        1.00
## residual.sugar        0.01          0.09             0.06        0.09
## chlorides            -0.05          0.02             0.07        0.11
## free.sulfur.dioxide  -0.01         -0.05            -0.10        0.09
## total.sulfur.dioxide -0.16          0.09             0.09        0.12
## density              -0.19          0.27             0.03        0.15
## pH                   -0.12         -0.43            -0.03       -0.16
## sulphates             0.01         -0.02            -0.04        0.06
## alcohol               0.21         -0.12             0.07       -0.08
## quality               0.04         -0.11            -0.19       -0.01
## other.sulfur.dioxide -0.19          0.14             0.16        0.10
##                      residual.sugar chlorides free.sulfur.dioxide
## X                              0.01     -0.05               -0.01
## fixed.acidity                  0.09      0.02               -0.05
## volatile.acidity               0.06      0.07               -0.10
## citric.acid                    0.09      0.11                0.09
## residual.sugar                 1.00      0.09                0.30
## chlorides                      0.09      1.00                0.10
## free.sulfur.dioxide            0.30      0.10                1.00
## total.sulfur.dioxide           0.40      0.20                0.62
## density                        0.84      0.26                0.29
## pH                            -0.19     -0.09                0.00
## sulphates                     -0.03      0.02                0.06
## alcohol                       -0.45     -0.36               -0.25
## quality                       -0.10     -0.21                0.01
## other.sulfur.dioxide           0.34      0.19                0.26
##                      total.sulfur.dioxide density    pH sulphates alcohol
## X                                   -0.16   -0.19 -0.12      0.01    0.21
## fixed.acidity                        0.09    0.27 -0.43     -0.02   -0.12
## volatile.acidity                     0.09    0.03 -0.03     -0.04    0.07
## citric.acid                          0.12    0.15 -0.16      0.06   -0.08
## residual.sugar                       0.40    0.84 -0.19     -0.03   -0.45
## chlorides                            0.20    0.26 -0.09      0.02   -0.36
## free.sulfur.dioxide                  0.62    0.29  0.00      0.06   -0.25
## total.sulfur.dioxide                 1.00    0.53  0.00      0.13   -0.45
## density                              0.53    1.00 -0.09      0.07   -0.78
## pH                                   0.00   -0.09  1.00      0.16    0.12
## sulphates                            0.13    0.07  0.16      1.00   -0.02
## alcohol                             -0.45   -0.78  0.12     -0.02    1.00
## quality                             -0.17   -0.31  0.10      0.05    0.44
## other.sulfur.dioxide                 0.92    0.50  0.00      0.14   -0.43
##                      quality other.sulfur.dioxide
## X                       0.04                -0.19
## fixed.acidity          -0.11                 0.14
## volatile.acidity       -0.19                 0.16
## citric.acid            -0.01                 0.10
## residual.sugar         -0.10                 0.34
## chlorides              -0.21                 0.19
## free.sulfur.dioxide     0.01                 0.26
## total.sulfur.dioxide   -0.17                 0.92
## density                -0.31                 0.50
## pH                      0.10                 0.00
## sulphates               0.05                 0.14
## alcohol                 0.44                -0.43
## quality                 1.00                -0.22
## other.sulfur.dioxide   -0.22                 1.00
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2

先要将quality转换成factor变量。

接下来查看每个变量与quality的关系。 首先是fixed.acidity和quality。fixed.acidity的值主要是3-11,因此可以调整x轴。

## Warning: Removed 2 rows containing non-finite values (stat_boxplot).

从fixed.acidity和quality的箱线图可以看出,不同的quality的酒之间的分布没有很大的差别。

## Warning: Removed 18 rows containing non-finite values (stat_boxplot).

从fixed.acidity和quality的箱线图可以看出,不同的quality的酒之间的分布是有差别的。从各个中位数可以看出,他们的中位数不是单调变化的。

## Warning: Removed 152 rows containing non-finite values (stat_boxplot).

从fixed.acidity和quality的箱线图也看不出什么分布规律。

## Warning: Removed 9 rows containing non-finite values (stat_boxplot).

从residul.sugar和quality的箱线图看不出什么分布规律。

## Warning: Removed 164 rows containing non-finite values (stat_boxplot).

cholrides和quality的箱线图的中的中位线也是先上升后下降。

## Warning: Removed 17 rows containing non-finite values (stat_boxplot).

quality和free.sulfur.dioxide可以看出,当quality大于4的时候free.sulfur.dioxide比较高,quality小与4的时候比较低。

## Warning: Removed 10 rows containing non-finite values (stat_boxplot).

看不出什么规律。

## Warning: Removed 12 rows containing non-finite values (stat_boxplot).

看不出什么规律。

## Warning: Removed 3 rows containing non-finite values (stat_boxplot).

总体来说density比较低的有更好的quality。

看不出什么规律。

看不出什么规律。

从图中可以看出当小于4时,酒精都比较低。当qualty变大了以后,酒精含量也上升。

双变量分析

探讨你在这部分探究中观察到的一些关系。这些感兴趣的特性与数据集内其他特性有什么区别?

total.sulfur.dioxide和free.sulfur.dioxide的相关系数是0.62. density和residual sugar的相关系数是0.84. total.sulfur.dioxide和density的相关系数是0.52 total.sulfur.dioxide和other.sulfur.dioxide的相关系数是0.92 alcohol和density的相关系数是-0.78。 alcohol, density和residual.sugar可能存在一定的关系。 other.sulfur.dioxdide是从total.sulfur.dioxide和free.sulfur.dioxide中生成的,因此它们三个肯定存在关系。从相关系数来看,density和residual sugar还有total.sulfur.dioxide是呈正相关,而density和alcohol是呈负相关。 ### 你是否观察到主要特性与其他特性之间的有趣关系? quality与citric.acid还有free.sulfur.dioxide相关性不大,与fixed.acidity, volatile.acidity,chlorides,total.sulfur.dioxdie,density呈负相关,与free.sulfur.dioxide,pH还有alcohol呈正相关。 ### 你发现最强的关系是什么? density和residual sugar之间的相关系数达到了0.84.

多变量绘图选择

由于,从前面的观察看到alcohol, density和residual.sugar可能存在一定的关系。这里我们就探讨一下这几个变量的关系。

ggplot(aes(x=residual.sugar, y=density, color=alcohol.bucket), data=pf) + 
  geom_point() + 
  scale_x_continuous(breaks=seq(0,20,2),limits=c(0,20)) + 
  scale_y_continuous(limits =c(0.987,1)) 
## Warning: Removed 81 rows containing missing values (geom_point).

ggplot(aes(x=alcohol,y=density,color=residual.sugar.bucket), data=pf) + 
  geom_point() + 
  scale_x_continuous(limits=c(8.5,11)) + 
  scale_y_continuous(limits=c(0.995,1.001))
## Warning: Removed 3122 rows containing missing values (geom_point).

ggplot(aes(x=alcohol, residual.sugar, color=density.bucket), data=pf) + 
  geom_point() + 
  scale_y_continuous(limits = c(0,20))
## Warning: Removed 18 rows containing missing values (geom_point).

从alcohol vs. density vs. residual.sugar的图中可以看出每个图中的点中有比较明显的分层。

多变量分析

探讨你在这部分探究中观察到的一些关系。通过观察感兴趣的特性,是否存在相互促进的特性?

  • 从alcohol vs. density vs. residual.sugar的图中可以看出每个图中的点中有比较明显的分层。
  • density vs. total.sulfur.dioxide vs. quality之间的有预测直线有比较多的交叉,不适合用来预测哪种quality
  • density vs. residual.sugar vs. quality之间的预测直线除了quality为9的时候,其他时候时候的quality有明显的分层,而且这种变化是有规律的。

这些特性之间是否存在有趣或惊人的联系呢?

从alcohol vs. density vs. residual.sugar中可以看出,糖分比较高的时候或者酒的密度会比较大,酒精含量多的时候密度会比较小。 使用density和residual.sugar可以在一定程度上预测一瓶酒的quality,但是quality为9的酒不好预测。 ### 选项:你是否创建过数据集的任何模型?讨论你模型的优缺点。


定稿图与总结

绘图一

描述一

从quality的直方图中可以看出quality符合正态分布。quality为6的数量最多,quality得分很高或者很低的数量很少。

绘图二

描述二

通常我们认为酒的质量和酒精的含量是有关系的。这幅图解释了在这个数据集中的关系。从图中可以看出,当qulity在5以下时酒精浓度和quality没什么关系,但是当quality大于5以后,酒精含量越高,quality也越高。对于quality为9的情况,酒精浓度相当的高。

绘图三

## Warning: Removed 81 rows containing non-finite values (stat_smooth).
## Warning: Removed 81 rows containing missing values (geom_point).
## Warning: Removed 9 rows containing missing values (geom_smooth).

描述三

从图中可以看出,除了quality=3和quality=9的情况,其他的quality都可以从图中区分出来。

反思

在刚开始分析单个数据的分布的时候,感觉比较迷茫,看不出数据之间的关系,对于如何分析无从下手。当开始分析两个数据的时候,先画出了相关系数的矩阵和散点图矩阵。从中可以挖掘中各个属性之间的相关性,然后取出几个相关的,仔细查看他们的关系。最好从分析多个变量中,可以进一步得出分析哪些变量与感兴趣的变量有关系。

在这个数据集中的数据基本是满足正态分布的,可能在以后的分析中会遇到数据不那么符合正态分布的,这时候可能要进行更多的处理。另外,相关系数的矩阵是非常重要的参考。单变量的分析可以用来查看数据的分布是否正常,算是数据分析前的准备,那么开始查看变量间的相关系数的时候才是真正开始数据分析的时候。